15.08.2024
15.08.2024
Les scientifiques financés par le FNS sont tenus de partager leurs sets de données dans des dépôts publics. Une première analyse montre que peu de sets de données sont déclarés au FNS, mais que la plupart d’entre eux respectent les principes FAIR.
Depuis l’introduction de sa politique d’Open Research Data (ORD – libre accès aux données de recherche) en 2017, le FNS exige que soit soumis un plan de gestion des données (Data Management Plan, DMP) pour la majorité de ses instruments d’encouragement. Il attend que les données produites dans le cadre des projets qu’il finance soient archivées dans des dépôts de données publics et respectent les principes de partage de données FAIR.
Le but d’un plan de gestion des données est de définir le cycle de vie prévu des données de recherche relatives à un projet. Il offre une perspective à long terme en décrivant la manière dont les données seront générées, collectées, documentées, partagées et conservées. Le FNS met à la disposition des chercheuses et chercheurs un formulaire type afin de compléter leur plan de gestion des données. Pour plus d’informations, il est possible de consulter la page Data Management Plan (DMP) - Directives pour les chercheuses et chercheurs.
Les principes FAIR sont destinés à permettre qu’un set de données puisse être facilement trouvé, accessible, interopérable et réutilisable. Le FNS exige que les données soient réutilisables sans restriction, pour autant qu’aucune clause juridique, éthique, concernant le droit d’auteur ou autre ne s’y oppose. Le FNS estime que l’Open Research Data et les principes FAIR apportent une contribution essentielle à la recherche scientifique en termes d’impact, de transparence et de reproductibilité. Pour plus d’informations, il est possible de consulter la page Open Research Data. Pour faciliter la transition vers des données de recherche FAIR, le FNS a défini un ensemble de critères minimaux à remplir par les dépôts de données pour être conformes aux principes FAIR.
Parmi les projets financés par le FNS qui sont achevés, la part pour lesquels au moins un set de données a été déclaré au FNS comme données output (cf. encadré sur la collecte des données output) ne cesse d’augmenter. Cette tendance s’observe dans tous les instruments d’encouragement du FNS et dans tous les domaines de recherche1.
Les projets en mathématiques, sciences naturelles et ingénierie (MINT) présentent la hausse la plus forte (+ 26 points de pourcentage depuis 2017/2018). On note aussi une progression des sets de données déclarés en sciences de la vie (SV) depuis 2017/2018 (+ 17 points de pourcentage). En sciences humaines et sociales (SHS), le nombre de sets de données a augmenté entre 2017/2018 et 2021 (+ 9 points de pourcentage), mais s’est stabilisé depuis (+ 2 points de pourcentage entre 2021 et 2023). En SHS, certaines disciplines traitent des données sensibles et ont des cycles de publication plus longs, en particulier dans les sciences sociales.
Pour les projets financés par le FNS achevés en 2023, un DMP a été demandé avant leur démarrage. Un grand nombre de DMP ont inclus une intention de publier des sets de données dans des dépôts de données FAIR et souvent en libre accès. L’analyse montre que seulement 23 % de ces projets (363 des 1548 projets achevés en 2023) ont déclaré au moins un set de données. En moyenne, chacun de ces projets avec sets de données a partagé 3,7 sets de données, soit un total de 1344 sets de données déclarés.
Si l’on place l’ORD dans le contexte de la publication en libre accès (OA), on note que la majorité des projets financés par le FNS qui sont achevés déclarent plusieurs publications scientifiques, le plus souvent en libre accès. Ces publications reposent souvent sur des sets de données qui devraient être déclarés en tant que données output. Mais pourquoi la part d’ORD est-elle seulement de 23 % ? Les raisons sont variées et difficiles à identifier précisément :
Cette situation montre qu’il est nécessaire que le FNS poursuive la sensibilisation sur ce sujet. L’une des mesures qu’il a prises est la mise en œuvre de ce monitoring ORD qui sera effectué régulièrement à l’avenir. Avec un monitoring effectué de manière ouverte et en publiant ses résultats, le FNS aspire à souligner l’importance des bonnes pratiques en matière d’ORD.
Le constat de la faible part de projets pour lesquels au moins un set de données a été déclaré fait écho à la situation sur le plan international, comme le montre l’étude menée par l’éditeur PLOS. D’après cette étude, environ 28 % des articles de recherche publiés chez PLOS étaient associés à des sets de données partagés dans un dépôt de données. Ce chiffre n’était que de 15 % pour d’autres articles de recherche en libre accès provenant de PubMed Central. Nos résultats sont également comparables à ceux de l’enquête sur le paysage européen des données de recherche, selon laquelle 22 % des personnes interrogées ont archivé des données dans des dépôts de données pendant leur activité de recherche actuelle ou la plus récente. Le fait que les parts d’ORD soient à un niveau similaire dans d’autres organisations indique que la faible proportion de sets de données déclarés au FNS peut aussi être liée à des motifs structurels.
Le résultat actuel du monitoring reflète un problème systématique : la politique en matière d’ORD n’est pas encore solidement ancrée au niveau académique comme l’est celle sur l’OA. Toutefois, les chiffres indiquent une évolution croissante vers un respect des pratiques d’ORD. Avec sa politique en matière d’ORD, le FNS soutient ce développement et s’engage pour plus de transparence dans le système académique.
Comme l’illustre la figure suivante, les solutions d’hébergement choisies par les chercheuses et chercheurs lors du partage de sets de données respectent généralement les principes FAIR. Le partage FAIR n’est toutefois pas synonyme de partage ouvert. Cette situation s’explique parfois par des réglementations légitimes en matière de protection des données, mais pas dans tous les cas. Une première analyse indique que près de la moitié des sets de données déclarés ont pu être identifiés comme librement accessibles, et que cela n’était pas clair pour l’autre moitié (cf. encadré « Comment les données output sont-elles collectées pour les projets financés par le FNS ? » à la fin de l’article).
Zenodo ne cesse de gagner en popularité depuis 2017. À peine quatre ans plus tard, cette plateforme est devenue le dépôt de données privilégié pour 40 % des sets de données déclarés. Mis à part quelques dépôts de données (principalement Zenodo et ETH Research Collection), l’utilisation de ces dépôts est morcelée en fonction du domaine de recherche (Open Science Framework et SwissUbase pour les SHS, et Gene Expression Omnibus pour les SV). Ce morcellement reflète vraisemblablement la grande diversité des données générées dans le cadre des divers projets financés par le FNS.
La tendance à déclarer et à partager des sets de données issus de projets financés par le FNS dans des dépôts de données conformes aux principes FAIR est en hausse. Cela montre que les acteurs sont de plus en plus sensibilisés au fait que les résultats de la recherche dépassent le cadre des articles scientifiques et que le partage de (méta)données fournit des informations importantes et précieuses. Néanmoins, alors qu’une majorité des publications scientifiques résultant de projets financés par le FNS sont en libre accès, il existe une marge de progression importante concernant la publication et la déclaration de sets de données. Le système de récompense scientifique actuel reste trop axé sur la publication d’articles scientifiques sans les sets de données correspondants. Grâce à sa stratégie nationale ORD et au plan d’action correspondant, le FNS participe au passage à des pratiques d’Open Science et à la reconnaissance des sets de données comme résultats de recherche importants.
Les données, le texte et le code de ce récit de données sont disponibles sur Github et archivés sur Zenodo.
DOI: 10.46446/datastory.open-research-data-2023
Les projets dans le domaine des infrastructures et de la communication scientifique sont exclus de cette analyse.↩︎
Comment les données output sont-elles collectées pour les projets financés par le FNS ?
Depuis 2011, les bénéficiaires de subsides sont invités à communiquer leurs résultats de recherche au FNS (la catégorie « Set de données » a été ajoutée en 2018). Les bénéficiaires peuvent saisir des données output à tout moment : pendant ou après l’achèvement des projets. Il leur est rappelé de communiquer ces données lors de la soumission d’un rapport scientifique (rapport annuel, intermédiaire ou final) et 18 mois après la fin d’un projet.
Les données utilisées dans ce récit proviennent du Portail de données du FNS (voir la section « Données output : sets de données » sous la rubrique Sets de données). Nous avons pris en compte les projets provenant de tous les instruments d’encouragement (sauf communication scientifique et infrastructures).
Pour calculer le taux de projets avec set de données, nous avons pris en compte les projets achevés entre octobre 2017 et décembre 2023. Pour les deux dernières figures, les « Données output : sets de données » ont été collectées à la mi-mars 2023 et nous avons pris en compte les projets achevés entre octobre 2017 et décembre 2022.
Les données ont été traitées manuellement pour vérifier la conformité aux principes FAIR des dépôts de données conformément aux directives du FNS. Il convient de mentionner que ces principes FAIR évoluent au fil du temps et peuvent ne pas refléter la conformité actuelle des dépôts de données analysés dans la présente analyse vis-à-vis des critères ORD du FNS.
Les bénéficiaires de subsides sont tenus de publier les sets de données étayant les recherches parues dans des publications scientifiques qui résultent de projets financés par le FNS. Les données doivent être accessibles au public, pour autant qu’aucune clause juridique, éthique, de droit d’auteur ou autre ne s’y oppose. L’accessibilité d’un set de données identifié par un Digital Object Identifier (DOI) a été définie en fonction des métadonnées fournies par DataCite. Un set de données a été considéré en libre accès si les métadonnées indiquaient que le set de données était en libre accès ou associé à une licence publique, ou disposait de l’une des licences suivantes :
Pour les sets de données sans métadonnées sur l’accessibilité ni licence associée, le statut d’accessibilité a été considéré comme inconnu.